La inferencia estadística en la investigación turística (página 2)

Partes: 1, 2

Muchas veces el investigador después de correr un
cuestionario a
una muestra de
turistas para saber, por ejemplo, el dato de la estadía
media para un segmento y la estadía media para otro
segmento; con la estadística
descriptiva el investigador obtiene esos resultado, pero lo
que interesa es saber si ese valor promedio
obtenido de la muestra es un dato real o ficticio, y si esa media
se puede utilizar realmente para fijar una determinada política
turística promocional. Si el dato obtenido es digamos 10
noches, ese número 10 puede ser la media de: 9+ 10+11,
pero puede ser también un valor promedio de la serie : 2 +
8+ 20; entonces: ¿se puede considerar que ese valor medio
de 10 es representativo de las dos series anotadas arriba ?; lo
anterior sólo lo podemos saber al aplicar un test de
significación.

EJEMPLOS PARA
ILUSTRAR

Supongamos que un investigador entrevista a
dos mercados de
turistas para evaluar el gasto medio diario probable sólo
de alimentación en de 5 estrellas de
dos muestras segmentadas (turistas de USA entrevistados en el
hotel y turistas de
USA entrevistados en el Aeropuerto), y que estaría
interesado, como condición exigida, que el gasto promedio
día sea superior de 27 dólares para poder tomar
alguna decisión promocional para ese mercado. Para
comprobarlo en un número pequeño de turistas
obtiene 6 datos en cada
lugar de la entrevista
en A y en B, como sigue:

Tabla 1. Gasto medio diario en alimentación
según dos entrevistas
(hotel y aereopuerto)

Número (datos)	A (USA)	B (USA)	A menos B = x
1	31	29	+2
2	27	27	0
3	29	25	+4
4	30	29	+1
5	26	28	-2
6	28	24	+4
Totales	171	162	+9
Promedio	28,5	27	+1,5

Se observa que el gasto medio día obtenido para
el turista de USA (en A) es de 28,5, mientras que el turista de
USA (en B) arroja un valor igual a 27. Resulta, que desde el
punto de vista de la estadística descriptiva el dato de USA
entrevistado en el hotel sería el mejor y el dato del
turista turista entrevistado en el Aeropuerto no cumple la
condición exigida. Pero la pregunta importante es:
¿Se debe admitir que los resultados obtenidos de A y de B
son diferentes, como parece indican los hallazgos, o son
idénticos, tomando en consideración el
universo?

La única manera de dar una respuesta a esta
importante pregunta es someter esos hallazgos a un test de
significación adecuado. La hipótesis nula señalaría que:
el gasto diario en A y en B son idénticos, o sea que la
diferencia entre las entrevistas en A y en B no difiere de cero
más que por razones accidentales debido al azar de
muestreo.

Así la media del conjunto e igual a + 1,5, pero
necesitamos dos datos más para hacer un test como son, la
desviación estándar y el número de grados de
libertad, en
este caso : 6- 1 = 5

La desviación estándar o típica de
todas las observaciones se calcula con la
fórmula:

También la desviación estándar se
puede estimar por el método
simplificado; es decir, con la raíz cuadrada de la
sumatoria al cuadrado de todas las diferencias encontradas en la
última columna del cuadro anterior multiplicado por la
sumatoria de todas las diferencias al cuadrado entre 6 datos, y
todo entre los grados de libertad igual a 6-1 = 5, como
sigue:

Ahora tenemos que hacer un test de significación
con el test “t” de Student y con su fórmula, o
sea:

t = 1,5 / 0,959 = 1,564

Recordemos que el número de grados de libertad es
6 menos 1 = 5. Ahora vamos a buscar en la tabla “t”
el valor crítico con 5 grados de libertad y obtener el
porcentaje de probabilidad
para alcanzar o pasar la prueba con el valor encontrado en la
tabla igual a :

t=1,564, el cual arroja la probabilidad de 10% a 20%,
pero no la probabilidad del 5% que era nuestro criterios de
aceptabilidad o admitido como nivel de
significación.

Así pues el investigador no puede señalar
que los resultados entre los dos segmentos de mercado
entrevistados en los dos lugares sea diferente, o sea que el
resultado de su entrevista en A es superior al resultado de su
entrevista en B. El resultado real para la población en su conjunto es que es
indiferente para una política promocional relativo al
gasto turístico considerar el sitio donde se obtenga la
información, pues la diferencias que
aparecieron en las muestras pudieron ser accidentales.

Pero qué hubiese pasado si al realizar la
encuesta a las
dos muestras obtenemos los hallazgos siguientes:

Tabla 2. Gasto medio diario en alimentación
según dos entrevistas (hotel y aereopuerto)

1	21	17	+4
2	20	18	+2
3	20	18	+2
4	22	16	+6
5	16	14	+2
6	21	13	+8
Totales	120	96	+24
Promedio	20	16	+4

Al hallar la desviación típica o
estándar de los aumentos del gasto diario de los dos
segmentos de turistas, obtenemos:

s = 2,530

t = 4/2,53/2,45

t = 4/ 1,033 = 3,872

El valor calculado de “t” es entonces 3,872,
y este dato con el grado de libertad igual a 6 – 1 = 5, en
la tabla “t” nos muestra que existe un 2% de
probabilidad de que se logre la diferencia entre los gastos de los dos
segmentos de turistas según el lugar de la
entrevista.

El investigador puede entonces concluir que el gasto
medio diario del turista que procede de USA y que es entrevistado
en el hotel, es superior al que es entrevistado en el aeropuerto,
y entonces la política promocional se debe basar en los
hallazgos encontrados en los hoteles como criterio básico y
prioritario.

Con esta introducción lo que queremos dejar bien
sentado es la importancia de comprobar si los datos de la
estadística descriptiva obtenidos de muestras son o no son
significativos ( se pueden generalizar a la población)
para poder tomar decisiones sin correr los riesgos
innecesarios.

Pero también muchas veces tenemos que comparar
datos de segmentos de turistas que difieren de su lugar de origen
para saber que segmento es superior uno del otro en base al
criterio del gasto diario medio. Tomemos el ejemplo que nos
permita comparar las propiedades de ese gasto medio día,
para dos tipos de turistas: el que proviene de USA (A) y el que
proviene de Europa
(B):

Tabla. Gasto media al día del turista norteamericano
(A) y del turista europeo (B)

Para A = x	Para B = z	X al cuadrado	Z al cuadrado
17	17	289	289
19	18	361	324
20	18	400	324
24	16	576	256
18	14	324	196
22	13	484	169
Totales 120	96	2434	1558
Promedio 20	16	–	–

Hemos visto que los totales son : 120, 96, 2434 y 1558 y
los valores
medios del
gasto día es de 20 y 16.

Para determinar la estimación de la
desviación típica de las dos muestras de datos, lo
haremos de esta manera: 1) estimamos la varianza con el
método simplificado, que nos arroja el valor de 5,6 y
luego la desviación típica obteniendo la
raíz de 5,6, como aparece en seguida:

s = 2,366

Ahora bien, el valor calculado de “t” es igual
a:

t = 1.691 * 1.732

t = 2,929

En este caso el número de grado de libertad es igual a
= 6 + 6 – 2 = 10

Entonces para 10 grados de libertad y un nivel de
significación del 5% en la tabla
“t”

obtenemos el valor crítico o teórico de
2,228. Como en nuestro calculo hemos obtenido el valor de
“t” igual a 2,929, o sea mayor que el dato de la
tabla, entonces se debe concluir que la diferencia entre los dos
valores medios
es significativo, pues sólo existe el 2% de probabilidad
de que las dos muestras pertenezcan a la misma población;
entonces el segmento de turistas A (USA) es superior al segmento
del turista B (Europa) en cuanto a las propiedades del gasto
medio día.

OTRAS PRUEBAS DE
HIPOTESIS

La comparación de
varianzas

En la
investigación turística a veces se necesita
comparar los parámetros de dispersión como por
ejemplo la varianza, o sea la desviación típica
elevada al cuadrado. Dos series de muestras pueden presentar
dispersiones y entonces se necesita conocer si son
idénticas o diferentes. La prueba adecuada para realizar
esto es el test de Fischer y además con el conociendo del
grado de libertad par cada muestra (número de datos menos
la unidad). La tabla de Fischer establece los valores para
diferentes niveles de significación y para diversos grados
de libertad.

Supongamos que existen dos regiones turísticas
con diferentes ventas de un
mismo producto
turístico de aventura y que según los datos
recopilados para el primer semestre del año y sus
variaciones son como se señala de inmediato. Lo que se
desea saber es si la variabilidad de estas ventas es la misma en
las dos regiones o si es más mayor en la Región A
que en la Región B. Para simplificar el cálculo
pongamos números reducidos para calcular con mayor
facilidad las varianzas de cada región:

Tabla 4. Ventas de un producto turístico de aventura
para dos regiones especificas

Mes	Región A	Región B	Valor al cuadrado para A	Valor al cuadrado para B
Enero	30	42	900	1764
Febrero	1	8	1	64
Marzo	34	40	1156	1600
Abril	17	36	289	1296
Mayo	45	51	2025	2601
Junio	22	43	484	1849
Totales	149	220	4855	9174

s al cuadrado para A = 4855 – 149 al cuadrado / 6 y
entre 5 = 1155 / 5 = 231

s al cuadrado para B = 9174 – 220 al cuadrado / 6 y
entre 5 = 1107 / 5 = 221

La relación de F se establece comparando los
hallazgos del resultado mayor de “s” entre el menor,
es decir : F = 231 / 221 = 1,045 y recordemos que el grado de
libertad es 6-1=5 para las dos muestras. Si ahora vamos a la
tabla “F” de Fischer para 5 grados de libertad,
allí encontramos esos valores según sus porcentajes
de probabilidad de 0,20; 0,10; 0,05; 0,01; 0,001 secuencialmente
así : 2,2; 3,5; 5,1; 11,0; y 29,8.

El valor calculado de F fue de 1,045, el cual
corresponde según la Tabla de Fischer a un nivel de
significación superior al 20% porque es menor que 2,2;
entonces se infiere que no hay diferencias significativas entre
las dos varianzas y que las variaciones de ventas entre las dos
regiones se pueden considerar como las mismas en el universo
total.

La comparación global de
frecuencias

Aquí el investigador lo que desea conocer es si
la frecuencia observada de un fenómeno es
significativamente igual a la frecuencia teórica prevista,
o si por el contrario estas dos frecuencias presentan una
diferencia significativa para un nivel de significación
dado.

El test para estos cálculos se denomina Chi
cuadrado y es muy utilizado en estudios de mercado en el campo
del turismo y en
especial al determinar preferencias de los turistas por
algún lugar determinado. Los datos se presentan en tablas
de 1 x 2 o en tablas de

2 x 2 o incluso en tablas de 2 x N veces. Veamos un ejemplo
simple para ilustrar este test.

Una estadística de problemas
acontecidos a los turistas en dos alojamientos hoteleros (A y B)
muestran que de 102 problemas, 59 problemas han tenido lugar en
el Hotel A y 43 en el Hotel B. La hipótesis nula del
investigador es que no existe relación entre el
número de problemas por el hecho de que ocurran en el
hotel A o en hotel B.

Lo que sigue de inmediato es saber si esa
hipótesis nula carece de fundamento y se puede rechazar.
Este test se hace con la prueba Chi Cuadrado. Lo primero que
parece lógico es que si no existe relación entre el
número de problemas y los hoteles, deberían
repartirse por igual los problemas entre los dos hoteles, digamos
unas frecuencias esperadas o teórica igual a : 51 y 51 =
102 problemas. Veamos las frecuencias observadas (a y b) y las
frecuencias esperadas (a prima y b prima) :

a = 59 b = 43

a prima = 51 b prima = 51

Con estos datos podemos estimar la prueba de Chi Cuadrado:

X2 = [ (a – a prima ) – 0,5 ] al cuadrado / a
prima + [ (b – b prima) – 0,50] al cuadrado / b
prima.

X2 = [ (59 – 51 ) – 0,5 ] al cuadrado / 51 +
[ ( 43 – 51) – 0,5 ] al cuadrado / 51

X2 = 7,5 al cuadrado / 51 + 7,5 al cuadrado / 51 = 1,103 +
1,103 = 2,206

Los grados de libertad es igual a 2 lugares menos 1 = 1

La tabla teórica Chi cuadrado, para diferentes
niveles de significación y diversos grados de libertad,
nos permite interceptar para 1 grado de libertad y para un nivel
de significación del 5% y entonces encontrar el valor
crítico de 3,841. Dado que en nuestro estimado el valor
encontrado fue de 2,206, o sea menor que el dato crítico,
podemos admitir que la hipótesis nula es correcta, o sea:
que no existe razón para suponer que se produzcan
más problemas en el hotel A que en el hotel B, si se
conocieran los parámetros de la
población.

La comparación entre coeficientes de
correlación lineal

La correlación lineal entre dos variables se
puede estimar recurriendo a las sugerencias de Student y Fischer
cuando afirmaron que : “si el número de pares de
datos es pequeño (menos de 20 pares de datos), se puede
determinar la significación de la correlación
lineal calculando el valor del índice “t”,
según la siguiente fórmula : t = r / Raíz de
1 menos r al cuadrado x Raíz del número de grados
de libertad.” En este caso el grado de libertad es igual al
número de pares de datos que se comparan menos
dos.

Para ilustrar este estimado supongamos lo siguiente: el
gerente de
marketing de
un hotel desea conocer si existe una relación directa
entre los gastos anuales de publicidad y las
pernoctaciones vendidas anualmente. Estos datos son como siguen
en unidades reducidas para facilitar el
cálculo:

Pernoctaciones vendidas al año : 32; 54; 95 ; 15; 164 ;
180

Gastos de publicidad: 8; 22; 17; 27; 36 ; 33

Para determinar si el aumento de los gastos de
publicidad provoca un aumento proporcional de las ventas, vamos a
calcular el coeficiente de correlación lineal
“r” como aparece en siguiente cuadro:

Tabla 5. Pernoctaciones vendidas anuales y gastos anuales
publicitarios

Ventas (x)	Publicidad (y)	x menos x promedio	y menos y promedio	x menos x promedio al cuadrado	y menos y promedio al cuadrado	X menos x promedio por y menos y promedio
32	8	-81.7	-15.8	6674.9	9.6	+1290.9
54	22	-59.7	-1.8	3564.1	3.2	+107.5
95	17	-18.7	-6.8	349.7	46.2	+127.2
157	27	+43.3	+3.2	1874.9	10.2	+138.6
164	36	+50.3	+12.2	2530.1	14.8	+613.7
180	33	+66.3	+9.2	4395.7	84.6	+610.0
Total 682	Total 143	–		19389.4	542.6	+2887.9
Media 113,7	Media 23,8	–

Los valores promedio fueron : 682 / 6 = 113,7 y 143 / 6 =
23,8

Ahora con los valores de la tabla podemos calcular el
coeficiente de correlación lineal “r”
:

r = Sumatoria de los valores elevados al cuadrado /
Raíz de la multiplicación de los dos valores
elevados

r = 2.887,9 / Raíz de 19389,4 x 542,6

r = 2887,9 / 3244 = 0,890

Según la estadística descriptiva el
coeficiente de correlación lineal es elevado (89%), e
incluso el coeficiente de determinación es aceptable o
sea: igual a : 0,890 x 0,890 = 0,79 (79%). Pero no basta con este
conocimiento,
es necesario determinar la significación
estadística de estos parámetros a nivel poblacional
y según el número de grados de libertad que en este
caso es igual a: 6 – 2 = 4.

Si observamos en la tabla el test crítico del
coeficiente de correlación para 4 grados de libertad,
veremos qué corresponde a: 0,890, y comprobaremos que se
ubica entre el 1% y el 2% de probabilidad, es decir mucho
más bajo que el nivel de significado aceptable del 5% y
por ello podemos inferir que la correlación positiva entre
los gastos de publicidad y las ventas es estadísticamente
significativa, o sea que las ventas crecen proporcionalmente a
los gastos de publicidad en la población como un
todo.

CONSIDERACIONES FINALES

Decía Sierra Bravo que : […] los
resultados de las investigaciones
sociales se refieren normalmente a muestras de la
población investigada y no a la población misma. Si
bien se suele hacer la generalización de que dichos
resultados también son válidos para el universo o
población de que se trate, siempre se plantea la duda
fundamental de si es admisible esta generalización ( 1983,
p. 531).

Dijimos que la duda surge porque es posible que los
resultados obtenidos en la muestra se puedan deber a un hecho
fortuito o al azar y no al hecho de que los parámetros
encontrados en la muestra se puedan trasladar al universo. Por
eso mismo es necesario buscar la validez de los hallazgos, con el
fin de saber si los parámetros de una muestra se pueden
generalizar hacia la población de donde la muestra se
tomó. Esta búsqueda de la validez se denomina
significación estadística y es un
cálculo necesario y fundamental para no correr riesgos de
hacer aseveraciones infundadas.

Esto también la corroboró Guillermo
Briones (1982, p. 187) al señalar que las pruebas de
significación se deben emplear cuando se trabaja con datos
que provienen de muestras probabilísticas, siempre que el
marco muestral sea perfecto y el universo sea relevante o sea con
las características apropiadas para someterlo a
verificación de hipótesis.

Es bueno señalar que los especialistas en la
metodología cualitativa etnográfica
señalan que en este campo se trabaja con miniparadigmas y
con sus propios presupuestos
lógicos internos apoyados en valores, tradiciones, roles
que se van regularizando para explicar la conducta
individual y grupal de una manera adecuada (Martínez,
2000, p. 1).

En este campo los eventos tienen el
significado para quienes están en ese medio social o en
ese contexto y la relación que consiguen es
holística para ser interpretada de acuerdo a criterios
vivénciales. Es decir, la pregunta básica es :
¿cuál es la cultura del
grupo?, como
lo hacen los antropólogos; o bien , ¿cuál es
la filosofía o esencia del fenómeno?,
como lo hacen los filósofos; o en todo caso,
¿cuál es el significado de la acción
humana, según el contexto?, como lo hacen los analistas de
contenidos con su hermenéutica; o también,
¿cuál es el procedimiento
para superar la situación?, como lo hacen los
psicólogos sociales e incluso la perspectiva
etnometodológica, cuando el sociólogo trata de
conocer de qué manera la gente le da sentido a sus
actividades diarias, para comportarse de una manera socialmente
aceptable.

En esto estudios cualitativos se acepta una muestra
intencional y el investigador tiene que ser muy agudo para poder
lograr su evidencia racional o validez empírica,
basándose en la coherencia interna y externa, en la
comprensión, en la capacidad predictiva, en la
precisión conceptual, originalidad, simplicidad, y en
aplicación práctica cuando existen contrastes y
potencia
heurística. La validez aparece al tener una imagen clara y
representativa de una realidad y si se pueden aplicar a grupos similares.
Incluso, si el estudio se puede repetir con el mismo
método sin alterar los resultados entonces surge la
confiabilidad de lo investigado.

Como hemos visto la manera de conocer con propiedad lo
que se investiga es muy diferente si se trata de un abordaje
cuantitativo o bien cualitativo. Cada investigador, según
el planteamiento del
problema y el marco teórico tendrá que tomar
una decisión del método para realizar su trabajo.